הרצאה 11 - בעיית הבנדיט
בעיית K armed bandit:
-
מצב בו עלינו לבחור שוב ושוב בין K פעולות, כאשר כל פעולה מניבה גמול מספרי, ומטרתנו היא למקסם את סך הגמול המצטבר לאורך זמן
-
ערך הפעולה:
- נבטא כ -
שהיא תוחלת הגמול עבור בחירה בפעולה a, מכיוון שהיא אינה ידועה, משתמשים בשערוך
- נבטא כ -
-
סוגי סוכנים (דרכי בחירת פעולה):
- מדיניות חמדנית (greedy):
- תמיד נבחר בפעולה עם אומדן הערך הגבוה ביותר
- מדיניות אפסילון-חמדנית (epsilon greedy):
- בהסתברות
נבחר בפעולה באקראי, ובהסתברות נפעל במדיניות חמדנית - חשוב לזכור שגם כאשר אנחנו בוחרים פעולה באופן אקראי, יש סיכוי שנבחר את הפעולה עם האומדן עם הערך הגבוה ביותר. כך שההסתברות לבחור בפעולה עם אומדן הערך הגבוה ביותר היא:
- בהסתברות
- מדיניות גרדיאנט:
- מדמה רשת נוירונים ללא קלטים שלומדת ערכי התנהגות ובוחרת מדיניות בהתאם לערך הכי גבוה
- הבחירה נעשית באמצעות פונקציית softmax
- פונקציית הבחירה יוצרת מצב שבו הסיכוי לבחור בפעולה עם הערך הגבוה ביותר עולה בעוד שהסיכוי לבחור בפעולות האחרות יורד
- מדיניות SARSA:
- העדכון הוא עבור צמד מצב פעולה והוא קורה רק אחרי שעוברים למצב הבא ובוחרים פעולה
- המדיניות לומד את ההתנהגות בפועל, כולל טעויות חקירה, ולכן מתאים למצבים שבהם החקירה עצמה משפיעה על הביצועים.
- מדיניות חמדנית (greedy):
-
סוגי סביבות (דפוסי גמול):
- סביבה לא סטוציונרית:
- התפלגות הגמולים משתנה לאורך זמן, הממוצע הוא "מטרה נעה" ולכן דרך פעולה שנלמדה בעבר עלולה להפוך ללא רלוונטית
- במקרים אלו נשתמש במקדם של
, נרצה להימנע ממצב שבו המקדם תלוי בזמן שבו אנחנו נמצאים, מכיוון שהסביבה יכולה להשתנות.
- סביבה סטוציונרית:
- הגמול נדגם מתוך התפלגות קבועה בזמן
- הממוצע נשאר יציב, ולכן הממוצע שנלמד בעבר הוא מנבע טוב לעתיד
- במקרים אלו נשתמש במקדם של
כך שהעבר מקבל משקל גדול יותר, והוא אכן מנבא טוב לעתיד
- סביבה לא סטוציונרית: